파스칼 (마이크로아키텍처)

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요
2. 상세 정보
- 2.1. GP100 아키텍처 개선 사항
- 2.2. GP104 아키텍처 개선 사항
3. 스트리밍 멀티프로세서 "파스칼" (SM)
4. Polymorph-Engine 4.0
5. 칩
6. 성능
7. 후속 제품
8. P100 가속기 및 DGX-1
참조

1. 개요

파스칼은 엔비디아가 2016년에 출시한 마이크로아키텍처로, 맥스웰의 후속 제품이다. GP100, GP102, GP104, GP106, GP107, GP108 등 다양한 GPU를 포함하며, CUDA 코어 수, 메모리 종류 및 성능에서 차이를 보인다. 파스칼 아키텍처는 고대역폭 메모리 2, NVLink, 향상된 동시 다중 프로젝션 등의 기술을 지원하며, 16비트 부동 소수점 연산 성능을 향상시켰다. 스트리밍 멀티프로세서(SM)는 칩에 따라 64~128개의 CUDA 코어를 가지며, Polymorph Engine 4.0을 통해 테셀레이션을 담당한다. 파스칼 아키텍처는 2017년 볼타, 2018년 튜링에 의해 대체되었다.

더 읽어볼만한 페이지

엔비디아 마이크로아키텍처 - 볼타 (마이크로아키텍처)
엔비디아의 볼타 마이크로아키텍처는 CUDA 컴퓨트 기능 7.0 지원, 정수 및 부동 소수점 연산 동시 실행, 12nm FinFET 공정, HBM2 및 NVLink 2.0을 통한 성능 향상, 딥 러닝을 위한 텐서 코어 도입을 특징으로 하며 Tegra Xavier SoC, Tesla V100 등에 적용되어 GPGPU 연산 성능을 향상시키고 딥 러닝 연구 개발에 기여했다.
엔비디아 마이크로아키텍처 - 튜링 (마이크로아키텍처)
튜링은 엔비디아가 개발한 마이크로아키텍처로, 실시간 광선 추적을 위해 쿠다 코어, 레이 트레이싱 코어, 텐서 코어 등을 결합하여 그래픽 성능을 향상시킨다.
그래픽스 마이크로아키텍처 - 인텔 Xe
인텔 Xe는 저전력부터 고성능 컴퓨팅까지 다양한 시장을 목표로 하는 인텔의 GPU 아키텍처 제품군으로, Xe-LP, Xe-HPG, Xe-HP, Xe-HPC 등의 하위 아키텍처를 가지며 외장 그래픽 카드인 인텔 아크 시리즈와 내장 그래픽, 데이터 센터용 GPU 등에 활용된다.
그래픽스 마이크로아키텍처 - 테라스케일 (마이크로아키텍처)
테라스케일은 AMD가 개발한 GPU 마이크로아키텍처로, 셰이더 처리량 증가를 위해 통합 셰이더 모델을 사용하며, VLIW 아키텍처를 기반으로 라데온 HD 2000, 3000, 4000, 5000, 6900 시리즈에 적용되었다가 그래픽스 코어 넥스트 아키텍처로 대체되었다.

파스칼 (마이크로아키텍처)
개요
파스칼 아키텍처 기반 GTX 1070 파운더스 에디션 그래픽 카드
출시일	2016년 5월 27일
단종일	알 수 없음
판매	Nvidia
설계 회사	Nvidia
제조사	TSMC 삼성전자
공정	TSMC 16FF 삼성 14 nm
코드명	GP10x
제품
데스크톱	GeForce GTX 10 시리즈
HEDT	Quadro P
서버	Tesla P4
API 지원
DirectX 버전	DirectX 12 (12.1)
Direct3D 버전	Direct3D 12.0
셰이더 모델 버전	Shader Model 6.7
OpenCL 버전	OpenCL 3.0
OpenGL 버전	OpenGL 4.6
OpenGL ES 버전	알 수 없음
CUDA 버전	컴퓨트 능력 6.0
OptiX 버전	알 수 없음
Mantle API	알 수 없음
Vulkan API	Vulkan 1.3
OpenGL 컴퓨트 버전	알 수 없음
CUDA 컴퓨트 버전	알 수 없음
DirectCompute 버전	알 수 없음
성능
컴퓨트	알 수 없음
최저 속도	알 수 없음
최저 속도 단위	알 수 없음
최고 속도	알 수 없음
최고 속도 단위	알 수 없음
셰이더 클럭	알 수 없음
캐시
L0 캐시	알 수 없음
L1 캐시	24 KB (SM당)
L2 캐시	256 KB—4 MB
L3 캐시	알 수 없음
메모리
메모리 지원	GDDR5 GDDR5X HBM2
메모리 클럭	알 수 없음
인터페이스
PCI Express 지원	PCIe 3.0
비디오 인코딩/디코딩
인코딩 코덱	H.264 H.265
디코딩 코덱	H.264 H.265 VP9
색심도	8비트 10비트
인코더	NVENC
디스플레이 출력
디스플레이 출력	DisplayPort 1.4a HDMI 2.0b DVI
아키텍처 연대표
이전 아키텍처	Maxwell
다음 아키텍처	Turing (소비자용) Volta (전문가용)

2. 상세 정보

GeForce GTX 1080 Ti 카드 내부에 있는 GP102 GPU의 다이 샷

2014년 3월, 엔비디아는 맥스웰의 후속 제품이 파스칼 마이크로아키텍처가 될 것이라고 발표했으며, 2016년 5월 6일에 발표되어 같은 해 5월 27일에 출시되었다. 테슬라 P100 (GP100 칩)은 GTX GPU (GP104 칩)와 비교하여 파스칼 아키텍처의 다른 버전을 가지고 있다. GP104의 셰이더 유닛은 맥스웰과 유사한 설계를 가지고 있다.^[5]

파스칼 마이크로아키텍처는 GP100과 GP104 두 가지 주요 버전으로 나뉘며, 각각 다른 특징과 성능을 제공한다. GP100은 고성능 컴퓨팅을 위한 설계이고, GP104는 게이밍 및 일반 사용자용으로 최적화되어 있다.

2. 1. GP100 아키텍처 개선 사항

파스칼에서 SM (스트리밍 멀티프로세서)은 GP100인지 GP104인지에 따라 64개 또는 128개의 CUDA 코어로 구성된다. 맥스웰은 SM당 128개의 CUDA 코어를 포함하고 있었고, 케플러는 192개, 페르미는 32개, 테슬라는 8개를 포함했다. GP100 SM은 각각 32개의 단정밀도 CUDA 코어, 명령 버퍼, 워프 스케줄러, 2개의 텍스처 매핑 유닛 및 2개의 디스패치 유닛을 갖는 2개의 처리 블록으로 분할된다.^[6]^[7]^[8]
CUDA 컴퓨트 기능 6.0을 지원한다.
HBM2(고대역폭 메모리 2)를 탑재했다. 일부 카드에는 총 4096비트의 버스 폭과 720 GB/s의 메모리 대역폭을 가진 4개의 스택에 16 GiB HBM2가 탑재되어 있다.
통합 메모리 - CPU와 GPU가 "페이지 마이그레이션 엔진"이라는 기술을 통해 주 시스템 메모리와 그래픽 카드 메모리에 모두 접근할 수 있는 메모리 아키텍처이다.
NVLink - CPU와 GPU 간, 그리고 여러 GPU 간의 고대역폭 버스이다. PCI Express를 사용하여 달성할 수 있는 것보다 훨씬 더 높은 전송 속도를 허용하며, 80~200 GB/s 사이를 제공하는 것으로 추정된다.^[9]^[10]
16비트 (FP16) 부동 소수점 연산(일반적으로 "반정밀도")은 32비트 부동 소수점 연산("단정밀도")의 두 배 속도로 실행될 수 있으며,^[11] 64비트 부동 소수점 연산(일반적으로 "배정밀도")은 32비트 부동 소수점 연산의 절반 속도로 실행된다.^[12]
맥스웰과 비교하여 CUDA 코어당 두 배의 레지스터를 갖는다.
더 많은 공유 메모리를 제공한다.
동적 부하 분산 스케줄링 시스템을 갖추고 있다.^[13] 이 시스템은 스케줄러가 여러 작업에 할당된 GPU의 양을 동적으로 조정하여 GPU가 더 이상 안전하게 분산될 수 있는 작업이 없을 때를 제외하고는 작업으로 포화 상태를 유지하도록 한다.^[13] 따라서 엔비디아는 파스칼의 드라이버에서 비동기 컴퓨팅을 안전하게 활성화했다.^[13]
명령어 수준 및 스레드 수준 선점을 지원한다.^[14]

2. 2. GP104 아키텍처 개선 사항

CUDA 컴퓨트 기능 6.1을 지원한다.
GDDR5X - 10Gbit/s 데이터 속도를 지원하는 새로운 메모리 표준이며, 업데이트된 메모리 컨트롤러를 포함한다.^[15]
동시 다중 프로젝션 - 업스트림 셰이더 단계에서 SMP 엔진으로 들어가는 단일 지오메트리 스트림의 여러 투영을 생성한다.^[16]
DisplayPort 1.4, HDMI 2.0b를 지원한다.
4세대 델타 색상 압축 기술이 적용되었다.
향상된 SLI 인터페이스 - 이전 버전보다 높은 대역폭을 가진다.
PureVideo 기능 세트 H 하드웨어 비디오 디코딩 HEVC Main10 (10비트), Main12 (12비트) 및 VP9 하드웨어 디코딩을 지원한다.
HDCP 2.2 지원, 4K DRM 보호 콘텐츠 재생 및 스트리밍 (Maxwell GM200 및 GM204는 HDCP 2.2를 지원하지 않으며, GM206은 HDCP 2.2를 지원한다).^[17]
NVENC HEVC Main10 10비트 하드웨어 인코딩을 지원한다.
GPU 부스트 3.0 기술이 적용되었다.
명령어 수준 선점을 지원한다.^[14] 그래픽 작업에서 드라이버는 픽셀 작업이 일반적으로 빠르게 완료되고 픽셀 수준 선점의 오버헤드 비용이 명령어 수준 선점 (비용이 많이 든다)보다 낮기 때문에 선점을 픽셀 수준으로 제한한다.^[14] 컴퓨트 작업은 스레드 수준 또는 명령어 수준 선점을 얻는다.^[14] 컴퓨트 작업은 완료하는 데 더 오래 걸릴 수 있으며 컴퓨트 작업이 언제 완료될지 보장되지 않기 때문이다. 따라서 드라이버는 이러한 작업에 대해 비용이 많이 드는 명령어 수준 선점을 활성화한다.^[14]

3. 스트리밍 멀티프로세서 "파스칼" (SM)

"스트리밍 멀티프로세서"(SM)는 AMD의 컴퓨트 유닛과 유사하다. SM은 GP104 칩에서 128개의 단정밀도 ALU("CUDA 코어")와 GP100 칩에서 64개의 단정밀도 ALU를 포함한다. 모든 CU 버전은 64개의 셰이더 프로세서(즉, 각 16레인 폭의 4개의 SIMD 벡터 유닛)로 구성되지만, 엔비디아는 CUDA 코어의 수를 다양하게 실험했다.

마이크로아키텍처	SM 당 단정밀도(FP32) 셰이더 프로세서 수	기타
테슬라	8개
페르미	32개
케플러	192개	64개의 배정밀도(FP64) 유닛 (GK110 GPU 한정)
맥스웰	128개
파스칼 (GP100)	64개	32개의 배정밀도(FP64) 유닛 (단정밀도 대 배정밀도 처리량 비율 2:1), 2엘리먼트 벡터로 처리 가능한 FP32 코어^[18] (머신 러닝 작업 지원)
파스칼 (GP104)	128개	4개의 배정밀도 ALU (32:1 비율), 2개의 반정밀도 부동 소수를 포함하는 하나의 반정밀도 ALU (동일 명령 사용 시 64:1 비율)

4. Polymorph-Engine 4.0

Polymorph Engine 4.0 버전은 테셀레이션을 담당하는 유닛이다. 이는 AMD의 Geometric Processor와 기능적으로 대응된다. 쉐이더 모듈에서 TPC로 이동하여 하나의 Polymorph 엔진이 TPC 내의 여러 SM에 데이터를 공급할 수 있게 되었다.^[19]

5. 칩

칩은 GPC (Graphics Processor Cluster, 그래픽 프로세서 클러스터)로 분할된다. GP104 칩의 경우, GPC는 5개의 SM (Streaming Multiprocessor, 스트리밍 멀티프로세서)을 포함한다.^[5]

6. 성능

파스칼 GPU의 이론적인 단정밀도 처리 능력은 GFLOPS 단위로 계산되며, 이는 2 × 사이클당 CUDA 코어당 FMA 명령어당 연산 수 × CUDA 코어 수 × 코어 클럭 속도(GHz)로 계산된다.

파스칼 GPU의 이론적인 배정밀도 처리 능력은 엔비디아 GP100의 경우 단정밀도 성능의 1/2이며, 엔비디아 GP102, GP104, GP106, GP107 및 GP108의 경우 1/32이다.

파스칼 GPU의 이론적인 반정밀도 처리 능력은 GP100의 경우 단정밀도 성능의 2배이며^[12], GP104, GP106, GP107 및 GP108의 경우 1/64이다.^[18]

7. 후속 제품

파스칼 아키텍처는 2017년 볼타에 의해 고성능 컴퓨팅, 클라우드 컴퓨팅, 자율 주행차 시장에서 대체되었으며, 2018년에는 소비자 및 기업 시장에서 튜링에 의해 대체되었다.^[33]

8. P100 가속기 및 DGX-1

DGX에 사용된 가속기를 비교하면 다음과 같다.^[34]^[35]^[36]

모델	FP32 CUDA 코어	FP64 코어 (텐서 제외)	부스트 클럭	메모리 클럭	메모리 버스 폭	메모리 대역폭	VRAM	단정밀도 (FP32)	배정밀도 (FP64)	상호 연결 (NVLink)	GPU	L1 캐시	L2 캐시	TDP	다이 크기	트랜지스터 개수	공정	출시
P100	N/A	1792	1480 MHz	1.4 Gbit/s HBM2	4096비트	720GB/초	16 GB HBM2	10.6 TFLOPS	5.3 TFLOPS	160GB/초	GP100	1344 KB (24 KB × 56)	4096 KB	300 W	610mm²	15.3 B	TSMC 16FF+	2016년 2분기

참조

_[1] 뉴스 NVIDIA 7nm Next-Gen-GPUs To Be Built By TSMC https://wccftech.com[...] 2019-07-06
_[2] 웹사이트 Samsung to Optical-Shrink NVIDIA "Pascal" to 14 nm https://www.techpowe[...] 2016-08-13
_[3] 웹사이트 Accelerating The Real-Time Ray Tracing Ecosystem: DXR For GeForce RTX and GeForce GTX https://www.nvidia.c[...]
_[4] 웹사이트 Ray Tracing Comes to Nvidia GTX GPUs: Here's How to Enable It https://www.tomsguid[...] 2019-04-11
_[5] 웹사이트 NVIDIA GeForce GTX 1080 http://international[...] 2016-09-15
_[6] 웹사이트 NVIDIA Updates GPU Roadmap; Announces Pascal http://blogs.nvidia.[...] Blogs.nvidia.com 2014-03-25
_[7] 웹사이트 Parallel Forall http://devblogs.nvid[...] Devblogs.nvidia.com 2014-03-25
_[8] 웹사이트 NVIDIA Tesla P100 https://images.nvidi[...] 2016-09-15
_[9] 웹사이트 Inside Pascal: NVIDIA's Newest Computing Platform https://devblogs.nvi[...] 2016-04-05
_[10] 웹사이트 NVLink, Pascal and Stacked Memory: Feeding the Appetite for Big Data http://devblogs.nvid[...] 2014-07-07
_[11] 웹사이트 NVIDIA's Next-Gen Pascal GPU Architecture to Provide 10X Speedup for Deep Learning Apps http://blogs.nvidia.[...] 2015-03-23
_[12] 뉴스 NVIDIA Announces Tesla P100 Accelerator - Pascal GP100 Power for HPC http://www.anandtech[...] 2016-05-27
_[13] 뉴스 The NVIDIA GeForce GTX 1080 & GTX 1070 Founders Editions Review: Kicking Off the FinFET Generation http://www.anandtech[...] 2016-07-21
_[14] 뉴스 The NVIDIA GeForce GTX 1080 & GTX 1070 Founders Editions Review: Kicking Off the FinFET Generation http://www.anandtech[...] 2016-07-21
_[15] 웹사이트 GTX 1080 Graphics Card http://www.geforce.c[...] GeForce 2016-09-15
_[16] 웹사이트 Nvidia GeForce GTX 1080 Simultaneous Multi-Projection & Async Compute http://www.tomshardw[...] 2016-09-15
_[17] 웹사이트 Nvidia Pascal HDCP 2.2 http://www.geforce.c[...] 2016-05-08
_[18] 뉴스 The NVIDIA GeForce GTX 1080 & GTX 1070 Founders Editions Review: Kicking Off the FinFET Generation http://www.anandtech[...] 2016-07-21
_[19] 뉴스 The NVIDIA GeForce GTX 1080 & GTX 1070 Founders Editions Review: Kicking Off the FinFET Generation http://www.anandtech[...] 2016-07-21
_[20] 웹사이트 Inside Pascal: NVIDIA's Newest Computing Platform https://devblogs.nvi[...] Nvidia 2016-06-03
_[21] 웹사이트 NVIDIA TITAN Xp Graphics Card with Pascal Architecture https://www.nvidia.c[...]
_[22] 웹사이트 NVIDIA TITAN X Graphics Card with Pascal https://www.nvidia.c[...] GeForce 2016-09-15
_[23] 웹사이트 New Quadro Graphics Built on Pascal Architecture http://www.nvidia.co[...] NVIDIA 2016-09-15
_[24] 웹사이트 Accelerating Data Center Workloads with GPUs http://www.nvidia.co[...] NVIDIA 2016-09-15
_[25] 웹사이트 Nvidia GeForce GTX 1060 Gets GDDR5X in Fifth Makeover https://www.tomshard[...] 2024-02-02
_[26] 웹사이트 NVIDIA GeForce 10 Series Graphics Cards https://www.nvidia.c[...]
_[27] 웹사이트 NVIDIA GeForce GTX 1060 to be released on July 7th http://videocardz.co[...] 2016-09-15
_[28] 웹사이트 GTX 1060 Graphics Cards http://www.geforce.c[...] GeForce 2016-09-15
_[29] 뉴스 NVIDIA Launches Tesla K20 & K20X: GK110 Arrives At Last http://www.anandtech[...] 2016-07-24
_[30] 웹사이트 CUDA C Programming Guide http://docs.nvidia.c[...] 2016-07-24
_[31] 뉴스 Nvidia GeForce GTX 1080, le premier GPU 16nm en test ! http://www.hardware.[...] 2016-07-24
_[32] 뉴스 GeForce GTX 970: Correcting The Specs & Exploring Memory Allocation http://www.anandtech[...] 2016-07-24
_[33] 웹사이트 NVIDIA Turing Release Date https://www.techrada[...] 2021-02-02
_[34] 뉴스 NVIDIA Hopper GPU Architecture and H100 Accelerator Announced: Working Smarter and Harder https://www.anandtec[...] AnandTech 2022-03-22
_[35] 뉴스 NVIDIA Ampere Unleashed: NVIDIA Announces New GPU Architecture, A100 GPU, and Accelerator https://www.anandtec[...] AnandTech 2020-05-14
_[36] 웹사이트 NVIDIA Tesla V100 tested: near unbelievable GPU power https://www.tweaktow[...] 2017-09-17
_[37] 뉴스 NVIDIA 7nm Next-Gen-GPUs To Be Built By TSMC https://wccftech.com[...] 2019-07-06
_[38] 웹인용 Samsung to Optical-Shrink NVIDIA "Pascal" to 14 nm https://www.techpowe[...] 2016-08-13
_[39] 웹인용 Accelerating The Real-Time Ray Tracing Ecosystem: DXR For GeForce RTX and GeForce GTX https://www.nvidia.c[...]

본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.

문의하기 : help@durumis.com